Analyse des concepts clés
Corrélation (Correlation) désigne une relation incertaine entre variables. Lorsqu'une variable est fixée, la valeur de l'autre reste aléatoire. Alors que relation fonctionnelle est déterministe : $y$ est entièrement déterminé par $x$.
En observant le diagramme en nuage de points (Scatter Plot), nous pouvons juger visuellement la relation entre les variables :
- Corrélation positive (Positive) : l'ensemble s'élève vers la droite-haut ; lorsque $x$ augmente, $y$ tend à augmenter.
- Corrélation négative (Negative) : l'ensemble descend vers la droite-bas ; lorsque $x$ augmente, $y$ tend à diminuer.
- Corrélation linéaire : les points sont regroupés près d'une ligne droite.
Situation 1 : Le paradoxe des cygnes
Dans une région, sur 5 villages, 3 ont beaucoup de cygnes et un taux de natalité élevé, tandis que 2 ont peu de cygnes et un taux de natalité faible. Une personne conclut que « les cygnes apportent des enfants ». Acceptez-vous cette conclusion ?
Situation 2 : Modèle de croissance économique
Le tableau ci-dessous présente les données du PIB d'une région entre 1997 et 2006. Nous devons déterminer : (1) Peut-on utiliser un modèle linéaire ? (2) Comment prédire le PIB en 2017 ?
Je ne suis pas d'accord avec cette conclusion. Il s'agit d'unecorrélation fallacieuse (Spurious Correlation)Bien que le nombre de cygnes et le taux de natalité soient positivement corrélés dans les données, il n’existe pas de lien causal direct entre eux. Cette corrélation provient probablement d’un « facteur commun » : par exemple, la superficie géographique ou la taille de la population du village. Les villages plus vastes possèdent généralement de plus grandes zones humides propices aux cygnes, tout en ayant une population plus importante, entraînant ainsi un plus grand nombre de naissances. La corrélation ne signifie pas causalité, on ne peut donc pas en déduire que « les cygnes apportent des enfants ».
Inapproprié. Si le diagramme en nuage de points montre une tendance nettement courbe (comme une croissance exponentielle), cela indique que les variables sont liées par unecorrélation non linéaireSi on impose l'utilisation d'un modèle de régression linéaire simple (modèle linéaire), le graphique des résidus présentera une distribution structurée (forme de U ou de U renversé), entraînant une baisse drastique de la précision de la prédiction, et empêchant de modéliser fidèlement l'accélération de la croissance du PIB au fil des années. Il faut alors envisager une transformation logarithmique des données pour les rendre linéaires, ou établir un modèle de croissance exponentielle.